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摘要 [目的 /意义 ] 探 讨 档案 信息 化 管理 面临 的 数据 量 急 剧 增加 .类 型 与 结构 日 益 多 元 复杂 的 现实 问题 。 
[方法 /过 程 ] 结合 档案 的 基本 属性 与 特征 , 分 析 数 字 化 档案 在 存储 、 利 用 等 典型 环节 所 具有 的 大 数据 特征 ， 
研究 并 阐述 档案 信息 化 过 程 中 ， 新 的 大 数据 技术 对 数字 档案 存储 与 利用 、 知 识 发 现 过 程 的 支持 与 应 用 。[ 结 
果 / 结论 ] 现代 大 数据 处 理 技术 不 仅 为 档案 信息 化 管理 带 来 一 定 的 解决 对 策 ， 同 时 可 以 促进 其 理论 与 实践 


的 发 展 。 
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随 着 信息 时 代 的 快速 发 展 ， 档 案 的 信息 化 
建设 是 大 势 所 趋 。 档 案 信息 化 是 档案 管理 从 传 
统 实体 服务 转向 数字 化 信息 服务 模式 的 转变 , 通 
过 数字 化 档案 信息 资源 和 网 络 化 档案 的 管理 过 
程 实现 对 档案 信息 资源 的 合理 管理 和 有 效 利用 
趾 。 在 大 数据 时 代 潮 流下 ， 大 数据 所 具有 的 海量 
(Volume)、 多 样 (Variety)、 高 速 (Velocity)、 可 
用 与 可 信 (Veracity) 即 4V 特性 ， 已 经 体现 到 
档案 信息 化 建设 中 ， 出 现 了 “档案 大 数据 ”的 概 
念 趾 及 在 大 数据 技术 支持 下 对 数字 化 档案 的 深 
度 挖掘 策略 站。 然而 ， 传 统 的 档案 管理 系统 难 
以 动态 扩展 ， 越 来 越 吃 力 外， 网 络 化 档案 的 管 
理 过 程 迫 在 眉 睫 。 特 别 是 数字 化 档案 信息 资源 
本 身 日 益 成 为 繁重 、 宛 长 而 效益 低下 的 工作 ， 数 


| 
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字 化 后 的 资源 仍然 存在 “信息 孤岛 "现象 而 得 不 
到 有 效 利 用 。 传 统 的 管理 与 技术 体系 已 经 逐渐 
不 能 满足 要 求 ， 如 何 与 大 数据 环境 和 技术 接轨 
是 档案 信息 化 面临 的 挑战 与 机 遇 。 


四 档案 信息 化 研究 现状 


国内 关于 档案 信息 化 的 研究 最 早 开 始 于 20 
世纪 90 年 代 末 ， 档 案 信 息 化 的 研究 源 于 社会 
信息 时 代 的 到 来 。 随 着 时 代 进 步 和 研究 的 不 断 
深入 ， 发 表 论 文 的 数量 呈 逐 年 上 升 趋势 ， 档 案 
信息 化 逐渐 成 为 档案 学 术 界 的 研究 热点 。 研 究 
初期 ， 学 者 们 较 多 地 关注 档案 信息 化 的 相关 理 
论 研 究 ， 研 究 范围 主要 集中 在 档案 信息 化 的 来 
源 ， 档 案 信息 化 与 相关 概念 、 相 关 工 作 之 间 的 
关系 ， 档 案 信息 化 建设 的 相关 内 容 研 究 ， 档 案 
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言 息 化 过 程 中 存在 的 问题 及 对 策 等 方面 。 史 丽 
萍 趾 认为 档案 馆 与 社会 信息 化 紧密 相关 ， 探 讨 
了 档案 信息 化 的 形成 ， 并 对 未 来 发 展 趋势 进行 
分 析 。 李 治 金 外 分 析 了 档案 信息 化 与 企业 信息 
化 之 间 的 联系 ， 说 明 信 息 化 对 企业 档案 事业 发 
展 的 重要 性 。 张 锐 中 对 档案 信息 化 理论 体系 建 
设 的 有 利 时 机 、 建 设 现状 与 存在 问题 ， 及 完善 
档案 信息 化 理论 体系 建设 的 策略 和 措施 进行 了 
探讨 。 丁 立新 马 在 分 析 我 国 档案 信息 化 发 展 的 
机 遇 与 困惑 基础 上 ， 对 档案 信息 化 工作 模式 、 应 
用 系统 建设 及 其 运行 维护 的 发 展 方向 进行 了 趋 
势 预 测 。 王 美琴 中 则 基于 我 国 档案 信息 化 建设 
基本 现状 分 析 ， 指 出 档案 信息 化 过 程 中 存在 的 
主要 问题 ， 提 出 加 快 实施 档案 信息 化 的 措施 。 
随 着 物 联 网 的 出 现 和 云 计 算 、 大 数据 等 信 
息 技 术 的 兴起 ， 社 会 信息 化 水 平 越 来 越 高 ， 同 
时 人 们 对 档案 信息 化 的 要 求 也 逐渐 提高 。 
2011 年 以 来 ， 国 内 掀起 了 大 数据 研究 热潮 ， 研 
究 文 献 数 量 呈 逐年 上 升 趋势 ， 大 数据 和 档案 信 
息 化 的 结合 也 日 渐 紧 密 。 我 国学 者 于 绕 大 数据 
背景 ， 展 开 了 一 系列 针对 档案 信息 化 的 研究 。 
张 英 奎 '" 等 分 析 了 大 数据 时 代 企业 档案 管理 所 
面临 的 主要 问题 ， 为 使 档案 管理 模式 更 好 契合 
时 代 发 展 ， 提 出 了 相关 策略 。 刘 国 华 等 建议 
从 服务 观念 、 档 案 信息 质量 、 档 案 资源 云 平台 
构建 三 个 方面 融入 并 强化 大 数据 技术 应 用 。 
国内 学 者 同时 还 关注 大 数据 技术 背景 下 我 
国 高 校 档案 信息 化 发 展 与 应 用 问题 。 陈 晨 "分 
析 了 高 校 图 书馆 的 档案 大 数据 及 信息 化 现状 ， 从 
软 硬 件 基础 设施 、 管 理 人 员 构 成 及 其 业务 和 安 
意识 、 管 理 制度 等 方面 提出 了 相应 改进 对 策 。 
目前 国内 档案 信息 化 研究 发 展 迅 速 ， 已 经 履 盖 
数字 档案 管理 、 档 案 信息 服务 、 档 案 数据 挖掘 
等 内 容 。 但 总 体 上 讲 ， 我 国 档案 信息 化 研究 还 
处 于 初步 发 展 阶段 ， 更 多 地 关注 信息 技术 在 档 
案 信 息 化 过 程 中 的 应 用 ， 理 论 体 系 尚 不 完善 ， 对 
大 数据 背景 下 档案 信息 化 所 面临 的 理论 基础 和 
技术 问题 认 知 尚 浅 ， 缺 乏 对 档案 信息 化 技术 的 
具体 说 明 ， 研 究 范 围 和 领域 有 待 拓 展 ， 人 研究 层 
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次 有 待 进一步 深化 。 
全 档案 信息 化 建设 面临 的 大 数据 问题 


当前 大 数据 技术 的 示范 应 用 主要 包括 社交 
媒体 数据 分 析 、 互 联网 广告 、 地 理 坐 标 及 商务 
智能 咏 ， 主 要 应 用 于 数据 挖掘 与 决策 层面 。 但 
从 长 远 看 ， 以 上 领域 会 拓展 到 数据 长 期 保存 、 信 
息 系 统管 理 等 方面 。 任 何 新 技术 的 应 用 都 与 社 
会 环境 密切 相关 ， 显 示 着 技术 的 社会 性 ， 并 受 
到 各 种 社会 条 件 的 制约 和 影响 中。 在 档案 的 信 
息 化 建设 过 程 中 ， 大 数据 技术 应 用 在 元 数据 与 
数字 化 档案 信息 资源 的 存储 、 可 追溯 、 利 用 的 
时 效 性 、 知 识 服务 的 可 用 性 等 方面 面临 一 些 问 
题 。 
3.1 数字 档案 资源 存储 问题 

只 有 对 所 收藏 的 数字 档案 资源 进行 可 信 
的 、 长 久保 存 的 系统 才能 称 之 为 数字 档案 馆 系 
统 "。 档 案 的 特性 在 于 持续 记录 不 断 发 展 的 历 
史 过 程 。 因 此 ， 数 字 档 案 资源 的 存储 是 个 永久 
的 量 增 过 程 ， 需 要 不 断 扩充 存储 载体 来 支持 这 
样 的 增长 。 此 外 ， 任 何 材质 的 载体 受到 自然 环 
境 及 技术 进步 的 影响 ， 都 会 逐渐 丧失 载体 的 功 
能 ， 从 而 影响 到 所 记录 的 信息 。 实 现 永 久保 存 
就 意味 着 按照 一 定 的 时 间 周 期 ， 对 于 需要 永久 
保存 的 档案 资源 定期 进行 数据 迁移 ， 以 便 对 数 
据 进 行 载体 更 新 、 技 术 更 新 、 管 理 更 新 ， 使 得 
信息 资源 能 够 不 断 保存 下 去 ， 这 是 档案 实现 可 
靠 长 期 保存 的 基本 要 求 。 

数字 档案 的 数据 由 描述 档案 实体 内 容 的 数 
据 与 描述 数据 的 数据 〈 元 数据 ) 两 大 部 分 构成 。 
档案 数据 一 般 具 有 只 读 特 性 。 因 此 ， 数 字 档 案 
的 著录 、 标 引 、 索 引 、 目 录 等 元 数据 相对 容易 
进行 标准 化 。 但 是 其 实体 数据 的 数据 类 型 、 格 
式 、 结 构 等 会 随 着 技术 革新 不 断 发 生变 化 ， 其 
所 承载 的 信息 完整 性 与 可 靠 性 受到 挑战 。 对 于 
数据 量 的 规模 增加 可 以 通过 不 断 增加 相应 的 软 
硬件 设备 来 应 对 ， 但 量 的 规模 到 一 定 程度 后 有 
可 能 导致 对 数据 的 控制 力 下 降 甚至 系统 衣 溃 。 
大 数据 环境 下 ， 数 据 迁 移 是 最 难 应 对 的 考验 。 
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尽管 可 以 通过 传统 关系 数据 库 的 三 级 模式 来 维 
持 迁 移 过 程 软件 的 独立 性 ， 但 迁移 的 数据 量 会 
越 来 越 大 ; 迁移 数据 的 数据 结构 及 附 载 其 上 的 
言 息 含义 越 来 越 复杂 ; 迁移 的 周期 随 着 技术 年 
新 节奏 的 加 快 ， 周 期 越 来 越 短 。 传 统 的 数据 库 
模式 已 经 不 能 有 效应 付 迁移 的 复杂 性 ， 特 别 是 
现 有 的 系统 经 过 技术 或 管理 草 新 重组 后 ， 数 据 
的 类 型 、 结 构 、 约 束 等 都 存在 转型 问题 。 维 护 
档案 的 真实 性 和 可 靠 性 面临 着 巨大 挑战 。 

3.2 数字 档案 资源 的 可 追溯 问题 

从 纵向 角度 通过 档案 能 了 解 其 反映 出 的 基 
本 语义 、 产 生 的 背景 、 来 源 及 原来 制 档 机关 的 
目的 ， 而 且 也 能 够 发 现 不 同 档案 资料 存在 的 相 
关 性 ， 即 档案 具有 可 追溯 性 。 虽 然 档 案 本 吴 一 
般 是 按照 一 事 一 案 以 案卷 、 全 宗 等 作为 关联 的 
单位 保存 的 ， 但 是 一 因 多 果 或 一 果 多 因 在 现实 
的 社会 环境 中 广泛 存在 。 所 以 对 档案 的 可 追溯 
性 并 非 局 限 在 案卷 内 或 全 宗 内 ， 往 往 需要 利用 
数字 档案 的 特点 进行 复杂 的 关联 查询 与 分 析 利 
用 。 而 且 ， 随 着 不 同行 业 、 专 业 领 域 之 间 的 互 
相 渗 透 ， 互 相 之 间 的 相关 性 会 越 来 越 多 ， 越 来 
越 复 杂 。 此 外 ， 数 字 档 案 全 宗 及 案卷 内 往往 存 
在 文本 、 图 像 、 视 频 等 异类 及 同类 但 异 构 的 数 
据 ， 用 户 的 追溯 需求 也 会 越 来 越 多 元 化 。 

由 此 使 得 数字 档案 的 可 追溯 性 在 不 远 的 将 
来 日 益 成 为 一 项 艰巨 的 任务 。 即 使 数字 化 的 信 
息 系统 在 理论 与 实践 方面 能 够 在 逻辑 上 实现 这 
样 的 复杂 关联 ， 但 是 所 导致 的 时 间 与 空间 复杂 
度 会 使 成 本 巨大 。 此 外 ， 数 字 档 案由 于 对 各 层 
次 软 硬 件 环境 及 原始 档案 管理 制度 的 依赖 ， 需 
要 大 量 的 元 数据 来 描述 ， 而 元 数据 与 档案 内 容 
之 间 昌 然 存在 逻辑 关联 ， 但 是 在 物理 上 党 是 独 
立 的 ， 这 种 关联 往往 随 着 技术 环境 的 变化 表现 
为 一 定 的 脆弱 性 。 传 统 意义 上 的 量 或 规模 已 经 
不 再 是 衡量 复杂 性 的 第 一 要 素 ， 复 杂 关 联 与 聚 
集 引 发 的 数据 复杂 性 远 远 超过 规模 的 复杂 性 效 
应 中 。 可 追溯 性 是 数字 档案 长 期 保存 的 可 用 性 
基本 要 求 ， 日益 复 杂 的 关联 性 与 高 效 、 可 用 及 
可 信和 是 矛盾 统一 体 ， 也 是 大 数据 环境 下 必须 面 
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对 的 问题 。 
3.3 数字 档案 利用 的 时 效 性 问题 

在 一 般 性 事务 查询 利用 方面 ， 对 于 以 关系 
模型 存储 的 档案 元 数据 ， 标 准 SQL 查询 的 结果 
与 响应 时 间 (时 间 复 杂 度 受到 数据 量 与 关联 
数 的 限制 ， 理 论 与 实践 上 不 可 能 无 限制 扩大 。 
如 果 数 据 库 中 包含 了 图 像 、 大 文本 、 视 频 等 大 
二 进 制 字 段 ， 检 索 效 率 更 会 大 打折 扣 。 此 外 ， 为 
了 加 强 对 数字 化 档案 的 利用 ， 会 在 原始 分 类 的 
基础 上 要 求 有 更 多 的 逻辑 分 类 ， 以 便于 进行 关 
联 分 析 。 由 此 ， 在 检索 过 程 中 ， 会 造成 数据 库 
之 间 、 数 据 表 之 间 复 杂 的 、 大 数据 量 的 关联 运算 。 
另外， 现 有 的 数字 档案 系统 一 般 均 要 求 支持 全 
文 查询 ， 现 有 技术 针对 全 文 查询 一 般 是 建立 在 
对 相关 文件 穷 举 式 扫描 基础 上 的 ， 在 具体 文件 
不 确定 的 情况 下 ， 如 果 涉 及 到 跨 库 、 跨 文件 查 
询 , 在 EB 级 数据 量 下 , 这 几乎 是 不 可 能 实现 的 。 

因此 ， 一 般 的 解决 的 方法 就 是 纵向 不 断 增 
加 层级 及 横向 采用 更 广泛 的 分 布 系统 ， 但 不 会 
解决 时 间 复 杂 度 越 来 越 大 、 系 统 炉 越 来 越 大 的 
根本 问题 。 
3.4 数字 档案 知识 服务 的 可 用 性 问题 

在 对 信息 资源 进行 分 析 或 进行 知识 发 现 
研究 时 ， 首 先 要 求 信息 资源 能 够 按照 知识 发 现 
主题 的 需要 建立 多 维度 分 析 模 型 ， 建 立 各 种 复 
杂 关 联 。 现 有 的 数字 化 档案 体系 一 般 是 传统 纸 
制 档案 的 数字 化 转换 。 受 制 于 其 传统 载体 及 立 
档 单位 ， 其 数字 化 副本 在 物理 与 逻辑 结构 上 都 
存在 小 集中 、 大 分 散 的 现象 。 小 集中 指 的 是 档 
案 的 保存 逻辑 上 体现 的 立 档 单位 一 般 以 全 宗 为 
单位 ， 事 由 以 案卷 为 单位 ， 关 联 方式 一 是 通过 
文件 物理 存储 的 集中 性 来 体现 ， 另 外 通过 大 量 
的 元 数据 描述 在 逻辑 结构 上 体现 ， 大 分 散 指 的 
是 不 同 地 域 、 不 同 机构 之 间 的 数字 档案 资料 缺 
乏 关 联 ， 形 成 一 定 规模 的 信息 孤岛 。 虽 然 有 利 
于 保证 档案 案卷 的 整体 性 及 体现 原来 制 档 机 构 
的 目的 ， 但 是 不 利于 按照 一 定 分 类 主题 形成 大 
规模 的 数据 集 市 或 数据 仓库 。 数 据 挖 掘 形成 的 
语义 关联 或 知识 图 谱 可 信 程度 大 打折 扣 。 检 索 
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查询 及 查询 后 基于 批 处 理 的 分 析 计 算 在 数据 量 
及 非 结 构 化 达到 一 定 程度 后 ， 很 难保 证 其 可 用 
性 ， 更 不 能 保证 其 高 效 性 。 

此 外 ， 档 案 信息 化 还 面临 着 元 数据 与 数据 
结构 问题 。 现 有 的 元 数据 主要 存在 于 关系 数据 
库 中 ， 关 系 结构 以 行 记录 为 单位 ， 而 大 数据 技 
术 环 境 下 的 数据 库 往往 是 以 列 为 单位 ， 这 样 就 
需要 对 原 有 的 元 数据 结构 进行 重新 设计 ， 也 就 
是 现 有 的 元 数据 结构 也 需要 发 生 相 应 的 变化 。 
大 数据 技术 应 用 面临 着 与 原 有 系统 冲突 的 问题 。 

另 一 方面 ， 大 数据 技术 应 用 还 存在 对 关联 
粒度 及 层次 结构 制约 的 问题 。 在 实际 应 用 中 ， 数 
字 档 案 之 间 的 逻辑 关系 相对 具有 较 多 的 层次 结 
构 。 除 了 档案 实体 文件 内 部 的 相关 性 外 ， 还 存 
在 案卷 与 案卷 之 间 的 联系 ， 同 一 案卷 中 “ 件 ” 与 
“ 件 ” 之 间 的 联系 ， 不 同 级 别 的 档案 管理 联系 。 这 
些 关联 具 有 一 定 的 “立体 ”特征 。 但 在 现 有 的 
大 数据 技术 环境 下 ， 由 于 数据 结构 相对 简单 ， 重 
在 对 异 构 、 海 量 数据 的 “平面 ”关联 分 析 , 因此 , 如 
何 将 数字 档案 的 数据 结构 重新 组 织 ， 在 不 破坏 
其 固有 的 立体 联系 情况 下 ， 实 现 高 效率 的 大 数 
据 分 析 将 是 极 大 的 挑战 。 


@@ 档案 信息 化 建设 中 大 数据 问题 的 
解决 对 策 
4.1 加 强 数字 档案 资源 存储 

档案 数字 化 是 借助 计算 机 网 络 技术 和 多 媒 
体 技术 发 展 而 产生 的 一 种 新 型 档案 信息 形态 , 将 
各 种 传统 载体 的 馆藏 档案 资源 转化 为 数字 化 档 
案 信息 ， 以 数字 化 形式 存储 、 网 络 化 形式 传输 
并 利用 计算 机 系统 进行 管理 ， 进 而 实现 档案 信 
息 的 快捷 利用 与 共享 "… "。 数 字 档 案 数据 在 保 
存 中 需要 按照 时 间 序 列 或 事由 进行 分 类 与 关 
联 ， 追 求 的 目标 是 将 存储 管理 由 载体 控制 转化 
为 软件 控制 。 传 统 的 模式 对 数据 的 结构 、 操 作 
及 约束 有 一 定 的 范式 要 求 ， 采 用 转 储 方式 或 基 
于 分 布 式 数据 库 系 统 的 模式 。 通 过 中 心 管理 服 
务 需 将 分 布 在 不 同 节 点 数据 库 中 的 数据 实现 逻 
辑 上 的 统一 管理 ， 存 储 的 方法 一 般 是 将 结构 化 
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的 关系 模型 作为 元 数据 信息 存储 的 数据 结构 ， 以 
此 来 关联 实体 档案 。 关 系 型 数据 库 虽 然 能 够 实 
现 比 较 复 杂 的 关联 ， 但 对 数据 量 非常 敏感 ， 具 
有 较 大 的 时 间 与 空间 复杂 度 。 在 档案 信息 化 建 
设 过 程 中 ， 利 用 大 数据 存储 技术 加 强 数字 档 
案 信 息 资源 存储 ， 如 通过 GFS (Google Files 
System) 、HDFS (Hadoop Files System) 等 分 
布 式 文件 存储 系统 ， 能 够 处 理 非 结构 化 数据 并 
实现 关联 ， 自 动 建立 基本 的 索引 元 数据 ， 适 合 
半 结 构 化 数字 档案 信息 资源 的 存储 与 处 理 。 

4.2 维护 档案 静态 特征 及 迁移 过 程 的 可 靠 性 

原始 记录 性 是 档案 的 本 质 属性 之 一 ， 客 观 
上 要 求 其 所 依赖 的 软 硬 件 环境 、 依 附 的 载体 及 
其 语义 能 够 维护 其 所 记录 信息 的 原始 性 、 真 实 
性 、 可 靠 性 等 静态 特征 ， 同 时 要 求 随 着 信息 技 
术 的 发 展 能 够 实现 一 致 性 的 数据 迁移 ， 从 而 保 
证 档案 信息 的 可 追溯 性 。 

大 数据 分 布 式 文件 存储 系统 能 够 将 文件 或 
文件 夹 中 的 对 象 直 接 转 化 为 二 进 制 数据 序列 ， 忽 
视 其 中 的 具体 格式 或 结构 ， 对 各 种 形式 存在 的 
档案 资源 在 底层 实现 智能 化 存储 与 处 理 ， 在 更 
高 的 层次 上 再 进行 利用 分 析 ; 此 外 ， 大 数据 技 
术 更 适应 对 大 文件 的 处 理 , 如 HDFS 文 件 系 统 ,可 
将 要 存储 的 非 结 构 化 数据 按照 统一 二 进 制 大 小 
(64M) 进行 分 片 、 多 点 备份 、 并 行 处 理 ， 形 
成 一 系列 的 (key,value) 键 值 对 ， 然 后 按照 键 进 
行 归 并 ， 对 相同 键 的 值 进行 结果 汇总 与 合并 。 
这 也 符合 档案 文件 的 组 织 特点 《以 “ 件 ” 或 “ 卷 " 组 
织 成 复合 文件 ) 。 由 此 能 够 很 地 维持 档案 资源 
存储 与 利用 过 程 中 的 完整 性 、 可 靠 性 ， 实 现 档 
案 数 据 变换 、 整 合 及 利用 的 智能 化 ， 可 以 针对 
档案 案卷 的 组 织 特 性 ， 将 其 以 复合 文件 或 文件 
类 集合 的 模式 进行 多 种 形式 的 组 织 ， 然 后 按照 
全 宗 建 立 群 节点 ， 从 而 简化 数字 档案 文件 存储 
管理 的 层次 级 别 。 

4.3 维护 数字 档案 的 时 效 性 和 可 用 性 

大 数据 技术 可 以 通过 弱化 关系 降低 数据 模 
型 的 复杂 性 ， 统 一 电子 文件 的 物理 与 逻辑 集成 
《集成 指 在 文档 管理 范畴 内 ， 将 电子 文件 及 其 
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内 容 信息 、 结 构 信 息 、 背 景 信息 采用 一 定 标准 、 规 
范 和 编码 进行 融合 "") 。 分 布 式 键 值 对 的 存储 
系统 能 够 实现 面向 列 的 、 可 伸缩 的 数据 存储 模 
式 ， 将 不 同类 型 、 不 同 结 构 的 海量 数据 按照 列 
徐 存 储 到 同一 文件 中 并 实现 性 能 良好 的 随机 访 
问 ， 使 数字 档案 按照 事由 进行 物理 封装 成 为 可 
能 。 相 应 地 也 可 以 使 内 容 信息 、 结 构 信 息 、 背 
景 信息 具有 逻辑 与 物理 上 的 统一 标识 与 封装 。 
此 外 ， 存 储 的 结构 支持 多 维特 性 ， 能 够 在 结构 
上 实现 动态 改变 ， 可 以 在 不 影响 原 有 数字 档案 
内 容 及 结构 的 前 提 下 ， 实 现行 、 列 、 时 间 惟 的 
动态 扩展 ， 由 此 可 以 实现 数字 档案 内 容 的 动态 
扩展 。 自 动 生成 索引 的 机 制 可 将 非 结构 化 的 数 
字 档 案 实现 半 结 构 化 ， 实 现 更 紧密 的 结合 ， 进 
一 步 维持 数字 档案 在 长 期 保存 过 程 中 的 完整 性 。 
如 果 能 够 与 现 有 系统 中 数字 档案 的 标准 元 数据 
进行 关联 ， 共 同 实现 对 档案 内 容 信息 的 索引 及 
描述 ， 会 极 大 增强 数字 档案 的 可 用 性 。 

档案 一 旦 形成 后 在 内 容 上 就 不 能 再 修改 , 大 
数据 技术 对 数据 修改 的 敏感 或 不 支持 并 不 影响 
档案 的 长 期 保存 ， 反 而 成 了 档案 长 期 存储 的 一 
种 优势 。 首 先是 大 数据 技术 所 支持 的 文件 系统 
通过 不 断 增 加 硬盘 数量 实现 容量 的 智能 化 增 
长 ， 存 储 采用 集群 架构 的 管理 与 多 重 备份 并 基 
于 智能 化 容错 ， 读 写 模式 采用 基于 二 进 制 的 分 
块 、 并 行 处 理 、 合 并 的 方式 ， 而 且 所 使 用 的 文 
件 系统 一 般 不 限制 文件 大 小 及 格式 。 因 此 ， 在 
构建 数字 档案 存储 系统 时 ， 无 论 从 逻辑 上 还 是 
物理 上 都 能 够 有 效 维护 档案 资源 的 原始 记录 性 
特征 。 
4.4 实现 档案 信息 的 关联 性 分 析 及 知识 发 现 

数字 档案 的 存储 在 数据 结构 上 大 都 具有 半 
结构 化 特性 。 一 方面 由 于 档案 数量 与 种 类 的 多 
元 导致 的 海量 、 异 构 等 非 结 构 化 特征 ， 田 一 方 
面 数字 档案 一 般 都 有 结构 化 、 标 准 化 的 元 数据 
描述 及 电子 标 引 等 元 素 。 因 此 ， 随 着 数字 档案 
资源 的 不 断 增加 ， 完 全 结构 化 或 完全 非 结 构 化 
的 资源 形态 均 不 多 见 。 将 结构 化 元 数据 与 非 结 
构 化 的 档案 实体 描述 数据 按照 一 定 的 模式 关联 
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成 半 结 构 化 模式 ， 日 渐 成 为 数字 档案 资源 组 织 
的 基本 模式 。 大 数据 技术 环境 可 以 提供 基于 键 
值 对 的 分 布 式 存储 与 处 理 ， 能 够 在 海量 、 异 构 
数据 中 自动 寻找 出 文字 间 的 语义 主题 ， 有 利于 
面向 领域 对 本 体 的 主题 知识 构建 。 此 外 ， 面 向 
列 的 、 可 伸缩 的 半 结 构 化 数据 库存 储 模 式 ， 如 
基于 HDFS 的 Habse 数据 库 管理 系统 ， 能 够 在 
行 、 列 、 时 间 维 实现 动态 扩展 , 通过 行 关键 字 、 列 
簇 、 列 关键 字 、 时 间 戳 形成 多 维 表 。 一 方面 能 
够 实现 复杂 的 半 结 构 化 与 非 结 构 化 数据 之 间 的 
关联 ， 另 一 方面 也 有 利于 形成 领域 、 论 域 、 主 
题 三 个 知识 关联 层次 。 由 此 ， 为 异 源 、 异 构 的 
数字 档案 进行 数据 挖掘 与 知识 发 现 提供 了 基本 
的 技术 支持 。 


@ 结 束 语 


尽管 档案 信息 化 工作 所 面临 的 大 数据 问题 
突出 ， 相 关 的 研究 重点 主要 聚焦 在 档案 所 具有 
的 大 数据 特征 及 相关 的 管理 与 利用 宏观 策略 方 
面 "”", 但 大 数据 技术 所 具有 的 分 布 式 、 云 计算 、 智 
能 化 特征 ， 及 对 海量 、 异 构 数 据 处 理 所 具 有 的 
优势 与 数字 档案 管理 的 现实 需求 具有 一 定 的 吻 
合 度 。 与 此 同时 ， 对 大 数据 及 其 相关 技术 应 用 
于 数字 档案 管理 的 深层 次 问题 需要 进一步 理解 
与 把 握 ， 例 如 大 数据 技术 如 何 为 档案 存储 、 迁 
移 及 跨 部 门 与 平台 的 知识 发 现 提供 支持 ， 以 及 
应 用 于 数字 档案 管理 所 需要 面 对 的 信息 系统 重 
构 、 信 息 及 数据 转换 层次 划分 问题 等 。 大 数据 
技术 及 其 生态 环境 是 信息 技术 发 展 的 必然 趋 
势 ， 促 进 着 通常 的 数字 档案 以 及 包括 数字 图 书 
资源 等 泛 化 “数字 档案 "相关 管理 理论 与 技术 的 
快速 发 展 "。 
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Analysis on Big Data Problems and Technique Supports of Archives Informatization 
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Abstract: [Purpose/significance] The realistic questions of the archives informatization management are 
faced with data size rapidly increasing, and their types and structures more diverse and complex. [Method/ 
process] Based on the essential attribute of archives in this paper, the big data characteristics of digital 
archives in their storage and utilization links were analyzed, and the support of new big data techniques in 
the course of archives informatization, and their applications to the storage and utilization of digital archives 
and knowledge discovery were researched. [Result/conclusion] Modern processing technology for big data 
would not only bring certain supports for the management of archives informatization, but also promote the 
development of its theory and practice. 
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